机器学习集成多组学专题
机器学习集成多组学专题
★
1、本专题采用腾讯会议在线直播的形式,课后提供无限次回放视频。建立永不解散的课程群,长期互动答疑,学员学完后可以继续与专业老师同学交流问题,巩固学习内容,从而更好地满足学员不同方面的论文及实际科研工作需求
2、课程通过基础入门+进阶实例演练的讲授思路,从初学及应用研究角度出发,带大家实战演练机器学习在多组学整合分析中的数据处理、预测模型以及生物学意义阐述等,助力大家掌握多种机器学习算法模型的构建以及在多组学联合分析在肿瘤及慢性病中的实际应用,并介绍当下深度学习算法高维组学数据处理,生物网络挖掘的前沿方法,最后以论文复现讲授单细胞组学论文的常用图表制作、细胞差异分析、细胞注释(自动与手动)、蛋白-蛋白相互作用网络构建与可视化,助力于研究创新机器学习算法解决生物学及临床疾病问题与需求。
讲师简介
由教育部直属全国重点大学,国家“双一流”A类,“985”, “211”重点建设高校医学院副教授,硕士生导师主讲。中科院院士团队骨干成员,美国Top50大学博士,博士后。近五年发表SCI论文10余篇。主持和参与国家级,省部级自然科学基金项目多项,拥有多年生物医学数据挖掘结合人工智能算法研究经验。主要擅长多组学联合分析在肿瘤等疾病的机制研究和生物多组学的算法开发。
课程大纲
基础教学大纲 | |
机器学习及生物组学基础 赠送预习视频 | 学习目标:对机器学习基本概念进行介绍,让大家对机器学习基本概念有大致了解。明确机器学习方法的适用性,优势,以及局限性等 |
Ø 什么是机器学习 Ø 机器学习的应用实例 Ø 生物组学简介(基因组学,转录组学,蛋白组学,代谢组学) Ø 机器学习在在多组学数据分析的应用 | |
python基础 赠送预习视频 | 学习目标:机器学习主流实现是python语言。学习机器学习之前,有针对性的对python进行系统的学习,数据的基本处理,以方便将来开展机器学习的学习 |
Ø python安装与开发环境的搭建 Ø 基本数据类型、组合数据类型 Ø 机器学习在在多组学数据分析的应用 Ø 函数、列表 、元组、字典、集合 Ø 控制结构、循环结构 Ø Numpy模块——矩阵的科学计算 Ø Matplotlib模块——数据处理与绘图 Ø Pandas模块——csv数据处理与分析 Ø Sklearn模块——机器学习模型基础软件包调用 案例实践教学一:利用Python pandas读取组学CSV数据并进行数据读取、转换、保存等 | |
生物组学大数据预处理与探索分析 | 学习目标:对高维组学数据进行统计分析及机器学习建模前,需要对数据进行预处理,如缺失值填补、降维可视化等,大数据预处理与探索分析是检验数据质量与了解数据分布的必要过程。 |
Ø 高维组学数据的预处理框架 Ø 常用数据预处理方法:缺失值填补,标准化,归一化,对数转化 Ø 常用的降维方法,PCA,tSNE等 Ø 数据探索分析(EDA) 案例实践教学二:利用Python读取组学CSV数据并进行数据探索可视化分析(Exploratory data analysis,EDA) | |
经典机器学习模型及多组学应用 | 学习目标:对在多组学整合分析中最常使用的几种机器学习模型进行介绍,总结它们的优缺点及适用范围,通过动手实践快速掌握几种方法 |
Ø 线性模型(线性回归、梯度下降、正则化、回归的评价指标) Ø 决策树(决策树原理、ID3算法、C4.5算法、CART算法) Ø 支持向量机(线性支持向量机、可分、不可分支持向量机) Ø 集成学习(AdaBoost和GBDT算法、XGBoost算法、LightGBM算法) Ø 模型选择与性能优化(数据清洗、特征工程、数据建模) Ø Scikit-learn机器学习库的使用 案例实践教学三:基于转录组学数据进行端到端的机器学习项目泛癌预测(数据预处理,数据建模,模型评估) 案例实践教学四:基于蛋白组学-代谢组学在COVID-19中生物标志物的发现 | |
深度学习在组学数据的应用 (入门及实践) | |
进阶教学大纲 | |
多组学联合分析,阐明疾病分子机制 (入门及实战) | 学习目标:从常见的多组学联合分析策略出发,如转录组+代谢组,蛋白组+代谢组等,对常用的数理统计分析方法进行介绍,之后学习如何利用数据库如KEGG等进行生物功能富集分析,结合机器学习方法进行生物标志物的挖掘,疾病预测以及生物分子作用机制等。 |
Ø 常用生物组学实验与分析方法,如转录组学,代谢组学 Ø 常用组学数据库介绍,如TCGA,PathBank,HMDB,KEGG Ø Python批量处理组学数据-归一化处理,差异分析,相关性分析 Ø 生物功能分析:GO 功能分析、代谢通路富集、分子互作等 Ø 基于转录组学的差异基因筛选,疾病预测 Ø 基于差异基因,联合代谢组学分析疾病分子发生机制 Ø 组学数据可视化,如火山图,t-SNE降维,代谢通路网络分析 Ø 组学特征(基因,蛋白,代谢物)选择(随机森林分析) Ø 单细胞转录组学数据分析及可视化分析 案例实践教学三:(包含以下内容) 转录组+代谢组的多组学分析胃癌 从海量的数据中筛选出关键基因、代谢物及代谢通路 深度解析胃癌肿瘤标志物解释肿瘤发生发展的复杂性和整体性案例 | |
深度学习神经网络进阶(入门及实践) | 学习目标:学习前沿神经网络如卷积神经网络,循环神经网络,注意力机制,自编码器,图神经网络在生物组学及药物筛选的应用,迁移学习应用等。 |
Ø 卷积神经网络基础及其应用(影像组学) Ø 循环神经网络基础及其应用(蛋白组学) Ø 注意力机制基础及其应用 Ø 自编码器基础及其应用(转录组学) Ø 图神经网络基础及其应用(代谢组学) Ø 迁移学习、深度学习框架——transformer的应用 案例实践教学四:基于(变分)自编码器进行药物/代谢物分子生成 | |
深度学习在组学数据药物发现的应用 (入门及实践) | 学习目标:基于基因表达特征建立疾病与小分子药物之间的关联关系,运用转录组学,蛋白组学,机器学习算法进行药物重定位。 |
Ø 基于生物组学的药物发现基础介绍 Ø 药物分子化学特征提取(分子指纹,描述符,分子图) Ø 图神经网络预测药物分子性质 Ø 基于胰腺癌差异表达基因进行药物重定位 案例实践教学五:基于机器学习与图神经网络进行代谢物/药物分子的性质预测 | |
AI+Science | 学习目标:人工智能领域前沿内容,让大家了解最新的多组学与机器学习领域的研究动态,同时介绍几种更为先进的机器学习算法。 |
Ø 集成学习在多组学数据联合分析中的应用 Ø 多组学数据库在生物信息网络的挖掘与应用 Ø 生成模型在多组学数据的应用与挑战 Ø 图神经网络进阶,链路预测在疾病-基因-蛋白-代谢物的关联网络应用 案例实践教学六:基于生成模型进行单细胞转录组数据深度特征提取的研究 | |
经典案例论文研究(论文图表复现) | 学习目标:通过学习经典多组学研究的SCI论文研究思路,系统学习多组学研究的论文图表制作,以单细胞组学研究为例,进行论文思路研究,方法探讨,图表制作。 |
论文复现一:单细胞组学论文的常用图表制作、细胞差异分析、细胞注释(自动与手动) 论文复现二:蛋白-蛋白相互作用网络构建与可视化复现。 |
报名须知
1
报名费用
(含报名费、培训费、资料费)
课程 | 原价 | 优惠价 |
多组学专题 (线上六天) | 5600 | 5400 |
Rosetta专题 (线下两天) | 3100 | 2900 |
CADD专题 (线上六天) | 5900 | 5700 |
【注】线下课程食宿可统一安排,费用自理,费用提供用于报销的正规机打发票及盖有公章的纸质培训通知文件或会议邀请函
2
联系方式
【注】线上/线下开课前一周会务组统一通知;线上开课前一天会将直播上机账号发至您微信